第1节 初识人工智能
人工智能(AI)作为新兴技术之一,在日常生活中已经被广泛地应用于教育、医疗、金融、电商等不同领域。本节对人工智能的关键技术和应用场景做简单的介绍。
1. 算法
机器学习致力于研究如何通过计算的手段,利用经验来改善系统自身的性能。在计算机系统中,经验通常以数据形式存在。因此,机器学习所研究的主要内容,是关于在计算机上从数据中产生模型(model) 的算法。有了算法,我们把经验数据提供给它,它就能基于这些数据产生模型;在面对新的情况时,模型会给我们提供对应的判断。
算法是人类智慧的结晶,从算法思想上分类,大概可以包括递推,分治,贪心,动态规划等,如下图所示。
算法在数学,计算机科学,医学等方方面面均有广泛的应用。机器学习可以分为监督学习,无监督学习和强化学习,其中常见的算法如下图所示。
2. 机器学习
机器学习(Machine Learning)是一门专门研究计算机怎样才能模拟或实现人类的学习行为,以获取新的知识或技能,使之不断改善自身的性能的学科。机器学习是人工智能的核心,是使计算机具有智能的根本途径,根据学习模式可以将机器学习分类为监督学习、无监督学习和半监督学习等。机器学习是人工智能研究发展到一定阶段的必然产物。
(1)机器学习的发展简史
二十世纪五十年代到七十年代初,人工智能研究处于推理期,那时人们认为只要能赋予机器逻辑推理能力,机器就具有智能。
随着研究发展,在七十年代中期开始,人工智能研究进入了知识期,要使机器具有智能,就必须设法使机器拥有知识。此期间大量的专家系统面世。
在八十年代,从样例中学习(监督和无监督学习等)的一大主流是符号主义学习。其代表包括决策树(decision tree)和基于逻辑的学习。
九十年代中期之前,从样例中学习的另一主流技术是基于神经网络的连接主义学习。与符主义学习能产生明确的概念表示不同,连接主义学习产生的是黑箱模型。连接主义最大的局限是试错性:学习过程涉及大量参数,而参数的设置缺乏理论指导,主要靠手工调试。
九十年代中期,统计学习(statistical learning)登场。代表技术是支持向量机(support vector machine)。
二十一世纪初,连接主义通过深度学习卷土重来。所谓深度学习,即很多层的神经网络。在涉及语音、图像等复杂对象的应用中,深度学习取得了优越性能。深度学习虽然缺乏严格的理论基础,但是它显著降低了机器学习的门槛,为机器学习的实践带来了便利。
当前时代,互联网和硬件高度发达,人们进入了大数据时代,深度学习取得了大发展。随着物联网、边缘计算、5G网络、IPV6等的发展和普及,相信人工智能会在人类社会发挥更大的作用。
(2)数据集
要进行机器学习,先要有数据。假定我们收集了一批关于西瓜的数据,例如
{色泽=青绿;根蒂=蜷缩;敲声=浊响}
{色泽=乌黑;根蒂=稍蜷;敲声=沉闷}
{色泽=浅白;根蒂=硬挺;敲声=清脆}
这样的一组数据称为一个数据集(data set),其中每条记录是关于一个事件或对象的描述,称为一个示例(instance)或样本(sample)。如果把每个样本中的色泽、根蒂和敲声作为三个坐标轴,则它们张成一个用于描述西瓜的三维空间,每个西瓜都可以在这个空间中找到自己的位置。当然,一般来说,维数越多,描述就会越精确。空间中每个点对应一个坐标向量,因此我们也把一个样本称为特征向量(feature vector)
(3)训练
从数据中学得模型的过程称为学习(learning) 或训练(training),这个过程通过执行某个算法来完成。训练过程中使用的数据称为训练数据(training data),其中每个样本称为一个训练样本(training set)。学得的模型会对应关于数据的某种规律。
例如,如果希望学得一个能帮助我们判断一个西瓜是不是好瓜的模型,仅仅有前面的数据集是不够的。要建立关于预测(prediction)的模型,我们需要过得训练样本的结果信息:
例如{{色泽=青绿;根蒂=蜷缩;敲声=浊响},好瓜}
这个关于结果的信息(好瓜)称为标记(label)。
(4)分类、回归、聚类、监督与无监督学习
若我们预测的是离散值,例如好瓜、坏瓜,此类学习任务称为分类(classification)
若预测的是连续值,如西瓜成熟度0.95,0.37,此类学习任务称为回归(regression)
我们可以对西瓜做聚类(cluistering)。即将训练集中的西瓜分为若干做,每组称为一个簇(cluster) 例如,算法自动将数据集分成了3簇,用三种颜色代表。每一簇内较大的点代表核心对象,较小的点代表边界点。黑色的点代表离群点或者叫噪声点。
根据训练数据是否拥有标记信息(好瓜),学习任务可划分为两大类:监督学习(supervised learning)和无监督学习(unsuperviserd learning)
分类和回归是监督学习的代表。聚类是无监督学习的代表。
3. 计算机视觉
计算机视觉是一门研究如何使机器“看”的科学,更进一步的说,就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉,并进一步做图形处理,使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科,计算机视觉研究相关的理论和技术,试图建立能够从图像或者多维数据中获取‘信息’的人工智能系统。这里所 指的信息指Shannon定义的,可以用来帮助做一个“决定”的信息。因为感知可以看作是从感官信号中提 取信息,所以计算机视觉也可以看作是研究如何使人工系统从图像或多维数据中“感知”的科学。计算机视觉的主要任务就是通过对采集的图片或视频进行处理以获得相应场景的信息。计算机视觉任务的主要类型有以下几种:
(1)物体检测
物体检测是视觉感知的第一步,也是计算机视觉的一个重要分支。物体检测的目标,就是用框去标出物体的位置,并给出物体的类别。物体检测和图像分类不一样,检测侧重于物体的搜索,而且物体检测的目标必须要有固定的形状和轮廓。图像分类可以是任意的目标,这个目标可能是物体,也可能是一些属性或者场景。
(2)物体识别
计算机视觉的经典问题便是判定一组图像数据中是否包含某个特定的物体,图像特征或运动状态。这一问题通常可以通过机器自动解决,但是到目前为止,还没有某个单一的方法能够广泛的对各种情况进行判定:在任意环境中识别任意物体。现有技术能够也只能够很好地解决特定目标的识别,比如简单几何图形识别、人脸识别、印刷或手写文件识别,或者车辆识别。而且这些识别需要在特定的环境中,具有指定的光照,背景和目标姿态要求。
(3)图像分类
一张图像中是否包含某种物体,对图像进行特征描述是物体分类的主要研究内容。一般说来,物体分类算法通过手工特征或者特征学习方法对整个图像进行全局描述,然后使用分类器判断是否存在某类物体。图像分类问题就是给输入图像分配标签的任务,这是计算机视觉的核心问题之一。这个过程往往与机器学习和深度学习不可分割。
(4)物体定位
如果说图像识别解决的是what,那么,物体定位解决的则是where的问题。利用计算视觉技术找到图像中某一目标物体在图像中的位置,即定位。目标物体的定位对于计算机视觉在安防、自动驾驶等领域的应用有着至关重要的意义。
4. 自然语言处理
自然语言处理是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系,但又有重要的区别。自然语言处理并不是一般地研究自然语言,而在于研制能有效地实现自然语言通信的计算机系统,特别是其中的软件系统。因而它是计算机科学的一部分。 自然语言处理(NLP)是计算机科学,人工智能,语言学关注计算机和人类(自然)语言之间的相互作用的领域。从研究内容来看,自然语言处理包括语法分析、语义分析、篇章理解等。从应用角度来看,自然语言处理具有广泛的应用前景。特别是在信息时代,自然语言处理的应用包罗万象,例如:机器翻译、手写体和印刷体字符识别、语音识别及文语转换、信息检索、信息抽取与过滤、文本分类与聚类、舆情分析和观点挖掘等,它涉及与语言处理相关的数据挖掘、机器学习、知识获取、知识工程、人工智能研究和与语言计算相关的语言学研究等。
5. 人机交互
人机交互(Human-Computer Interaction, HCI)是指人与计算机之间使用某种对话语言,以一定的交互方式,为完成确定任务的人与计算机之间的信息交换过程,是人工智能领域的重要的外围技术。人机交互是与认知心理学、人机工程学、多媒体技术、虚拟现实技术等密切相关的综合学科。传统的人与计算机之间的信息交换主要依靠交互设备进行,包括键盘、鼠标、操纵杆、数据服装、眼动跟踪器、位置跟踪器、数据手套、压力笔等输入设备,以及打印机、绘图仪、显示器、头盔式显示器、音箱等输出设备。人机交互技术除了传统的基本交互和图形交互外,还包括语音交互、情感交互、体感交互及脑机交互等技术。人机交互技术领域热点技术的应用潜力已经开始展现,比如智能手机配备的地理空间跟踪技术,应用于可穿戴式计算机、隐身技术、浸入式游戏等的动作识别技术,应用于虚拟现实、遥控机器人及远程医疗等的触觉交互技术,应用于呼叫路由、家庭自动化及语音拨号等场合的语音识别技术,对于有语言障碍的人士的无声语音识别,应用于广告、网站、产品目录、杂志效用测试的眼动跟踪技术,针对有语言和行动障碍人开发的“意念轮椅”采用的基于脑电波的人机界面技术等。
6. 知识图谱
从实际应用的角度出发其实可以简单地把知识图谱理解成多关系图(Multi-relational Graph)。那什么叫多关系图呢? 学图是由节点(Vertex)和边(Edge)来构成,但这些图通常只包含一种类型的节点和边。但相反,多关系图一般包含多种类型的节点和多种类型的边。比如左下图表示一个经典的图结构,右边的图则表示多关系图,因为图里包含了多种类型的节点和边。这些类型由不同的颜色来标记。
在知识图谱里,我们通常用 “实体(Entity)” 来表达图里的节点、用 “关系(Relation)” 来表达图里的 “边”。实体指的是现实世界中的事物比如人、地名、概念、药物、公司等,关系则用来表达不同实体之间的某种联系,比如人 -“居住在”- 北京、张三和李四是 “朋友”、逻辑回归是深度学习的 “先导知识” 等等。
现实世界中的很多场景非常适合用知识图谱来表达。 比如一个社交网络图谱里,我们既可以有 “人” 的实体,也可以包含 “公司” 实体。人和人之间的关系可以是 “朋友”,也可以是 “同事” 关系。人和公司之间的关系可以是 “现任职” 或者 “曾任职” 的关系。 类似的,一个风控知识图谱可以包含 “电话”、“公司” 的实体,电话和电话之间的关系可以是 “通话” 关系,而且每个公司它也会有固定的电话。
知识图谱的应用
当你看到下面这行文本时会想到什么?
Ronaldo Luís Nazário de Lima
估计绝大多数中国人不明白上面的文本代表什么意思。没关系,我们看看它对应的中文:
罗纳尔多・路易斯・纳萨里奥・德・利马
现在大多数人应该能够明白这是一个外国人的名字。熟悉足球的人可能会知道这是一个巴西足球运动员。
之所以举这样一个例子,是因为,计算机一直面临着这样的困境 —— 无法获取网络文本的语义信息。尽管近些年人工智能得到了长足的发展,在某些任务上取得超越人类的成绩,但离一台机器拥有一个两三岁小孩的智力这样一个目标还有一段距离。这距离的背后很大一部分原因是机器缺少知识。如同上面的例子,机器看到文本的反应和我们看到罗纳尔多葡萄牙语原名的反应别无二致。为了让机器能够理解文本背后的含义,我们需要对可描述的事物 (实体) 进行建模,填充它的属性,拓展它和其他事物的联系,即,构建机器的先验知识。就以罗纳尔多这个例子说明,当我们围绕这个实体进行相应的扩展,我们就可以得到下面这张知识图。
机器拥有了这样的先验知识,当它再次看到 Ronaldo Luís Nazário de Lima,它就会 “想”:“这是一个名字叫 Ronaldo Luís Nazário de Lima 的巴西足球运动员。” 这和我们人类在看到熟悉的事物,会做一些联想和推理是很类似的。
Google 为了提升搜索引擎返回的答案质量,推出了知识图谱概念。有知识图谱的辅助,搜索引擎能够根据用户查询背后的语义信息,返回更准确、更结构化的信息。Google 知识图谱的宣传语 “things not strings” 道出了知识图谱的精髓:不要无意义的字符串,需要文本背后的对象或事物。
我们可以把知识图谱认为是一个知识库。比如在 Google 搜索引擎里输入 “Who is the wife of Bill Gates?”,我们直接可以得到答案 -“Melinda Gates”。这是因为我们在系统层面上已经创建好了一个包含 “Bill Gates” 和 “Melinda Gates” 的实体以及他俩之间关系的知识库。所以,当我们执行搜索的时候,就可以通过关键词提取("Bill Gates", "Melinda Gates", "wife")以及知识库上的匹配可以直接获得最终的答案。这种搜索方式跟传统的搜索引擎是不一样的,一个传统的搜索引擎它返回的是网页、而不是最终的答案。我们只能得到包含这个关键词的网页,然后不得不点击进入相关网页查找需要的信息,所以就多了一层用户自己筛选并过滤信息的过程。
7. 云计算与大数据
云计算(cloud computing)是分布式计算的一种,指的是通过网络“云”将巨大的数据计算处理程序分解成无数个小程序,然后,通过多部服务器组成的系统进行处理和分析这些小程序得到结果并返回给用户。云计算早期,简单地说,就是简单的分布式计算,解决任务分发,并进行计算结果的合并。因而,云计算又称为网格计算。通过这项技术,可以在很短的时间内(几秒种)完成对数以万计的数据的处理,从而达到强大的网络服务。“云”实质上就是一个网络,狭义上讲,云计算就是一种提供资源的网络,使用者可以随时获取“云”上的资源,按需求量使用,并且可以看成是无限扩展的,只要按使用量付费就可以,“云”就像自来水厂一样,我们可以随时接水,并且不限量,按照自己家的用水量,付费给自来水厂就可以。从广义上说,云计算是与信息技术、软件、互联网相关的一种服务,这种计算资源共享池叫做“云”,云计算把许多计算资源集合起来,通过软件实现自动化管理,只需要很少的人参与,就能让资源被快速提供。也就是说,计算能力作为一种商品,可以在互联网上流通,就像水、电、煤气一样,可以方便地取用,且价格较为低廉。总之,云计算不是一种全新的网络技术,而是一种全新的网络应用概念,云计算的核心概念就是以互联网为中心,在网站上提供快速且安全的云计算服务与数据存储,让每一个使用互联网的人都可以使用网络上的庞大计算资源与数据中心。 大数据是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力来适应海量、高增长率和多样化的信息资产。麦肯锡全球研究所给出的定义是:一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合,具有海量的数据规模、快速的数据流转、多样的数据类型和价值密度低四大特征。大数据技术的战略意义不在于掌握庞大的数据信息,而在于对这些含有意义的数据进行专业化处理。换而言之,如果把大数据比作一种产业,那么这种产业实现盈利的关键,在于提高对数据的“加工能力”,通过“加工”实现数据的“增值”。